同盾AI研究院深度學習首席專家李宏宇：解構知識聯(lián)邦，開創(chuàng)數(shù)據(jù)“可用不可見”新局面

本文作者：周蕾

2020-05-25 15:20

導語：做你的知己，同時對你一無所知。

近日，同盾科技人工智能研究院深度學習首席專家李宏宇做客雷鋒網公開課，以《知識聯(lián)邦：開創(chuàng)數(shù)據(jù)“可用不可見”新局面》為題進行分享。

關注微信公眾號 AI金融評論，在公眾號聊天框回復“聽課”，進群可收看本節(jié)課程視頻回放。

此前同盾在數(shù)據(jù)聯(lián)邦、聯(lián)邦學習和安全多方計算的基礎上演化出統(tǒng)一框架體系“知識聯(lián)邦”，并基于知識聯(lián)邦體系發(fā)布了國產原創(chuàng)、自主可控的智邦平臺（iBond）及《知識聯(lián)邦白皮書》。

本次課程中，李宏宇詳細講述了知識聯(lián)邦的技術細節(jié)，以及信用分評估、多頭共債風險、用戶體驗A/B test等多個典型場景的聯(lián)邦學習應用案例。

以下為李宏宇課程全場和互動問答精選，雷鋒網AI金融評論做了不影響原意的編輯：

天平兩端：數(shù)據(jù)隱私性和便利性

兩年前，我們接觸到區(qū)塊鏈和聯(lián)合建模中數(shù)據(jù)安全需求，就已在探索聯(lián)邦學習應用。

近年來聯(lián)邦學習熱度變高，一個主要原因還是數(shù)據(jù)孤島現(xiàn)象，不僅僅有邏輯上的存在，也有物理上的。不止特征變量是孤島，也可能是更關鍵的學習當中的標簽，形成了割裂的形象。

在機構間，尤其政府部門，很多數(shù)據(jù)沒有充分共享。又比如醫(yī)療，保險公司希望用醫(yī)院的數(shù)據(jù)做健康險或壽險的風險評估。銀行和稅務，也希望通過銀稅合作來獲取客戶的風險評估信息。

企業(yè)內部也如此：集團化的企業(yè)公司越來越大，子公司、分公司，就連部門內部的系統(tǒng)，都可能是自己分別開發(fā)的，數(shù)據(jù)之間完全孤立。

再微觀一點，每個用戶的數(shù)據(jù)都有很大的價值，想要生成一組通用的用戶畫像，要獲取到足夠多的用戶數(shù)據(jù)非常困難。

消除行業(yè)數(shù)據(jù)孤島現(xiàn)象，讓數(shù)據(jù)相互之間協(xié)作起來，必然是未來發(fā)展趨勢。

另一種現(xiàn)象，就是隱私換便利，數(shù)據(jù)不斷地泄露導致詐騙。

為什么會不斷泄露？很大的一個原因，現(xiàn)在免費使用一些APP時，使用前都要用戶授權，獲取相關數(shù)據(jù)。這些其實都是你的個人隱私，個別內部人員可能會拿著你的數(shù)據(jù)對外變現(xiàn)，產生詐騙行為。

用戶隱私都赤裸裸暴露在網絡的服務提供者面前，個人隱私當成商品買賣已經是非常普遍的現(xiàn)象。有調研顯示，70%以上的社會公眾對于當前他們的個人信息是沒有安全感的。

近期也有傳聞說國外黑客論壇在出售中國很多金融機構的信息。不一定真實，但很多人心里也會緊張。

現(xiàn)在國際上和國內上的立法慢慢出現(xiàn)，這兩年中國在數(shù)據(jù)安全和隱私保護相關已經做了很大的工作。

2019年有數(shù)據(jù)安全管理辦法，這也可能會是未來數(shù)據(jù)安全法的早期版本；數(shù)據(jù)交易服務安全要求也做了一些相應的新規(guī)定。今年3月份有個人金融信息保護技術的規(guī)范。

想要這些數(shù)據(jù)完全閉塞，不共享數(shù)據(jù)，這不現(xiàn)實，要把這些有經濟價值的數(shù)據(jù)充分利用起來。這就要在數(shù)據(jù)的隱私性和便利性之間尋求平衡。也正是這樣隱私保護的需求，未來會出現(xiàn)一系列新的技術浪潮。

有很多人對數(shù)據(jù)安全沒有非常清晰的認識。這里我借用數(shù)據(jù)安全能力成熟度模型的定義來分享。

同盾AI研究院深度學習首席專家李宏宇：解構知識聯(lián)邦，開創(chuàng)數(shù)據(jù)“可用不可見”新局面

數(shù)據(jù)安全的核心，其實是以數(shù)據(jù)為中心的安全，它的目的仍然是保護數(shù)據(jù)的可用性、完整性和機密性。數(shù)據(jù)在安全的同時，要保證它可用。

合法合規(guī)的情況下，怎樣做數(shù)據(jù)交易？它的定義是，在數(shù)據(jù)供需雙方以數(shù)據(jù)商品作為交易對象。

這里的重點就是：數(shù)據(jù)商品是什么？直接拿原始數(shù)據(jù)買賣，屬于數(shù)據(jù)商品，而對原始數(shù)據(jù)加工處理后的一些數(shù)據(jù)衍生產品也屬于數(shù)據(jù)商品。

另外一個更被大家關心的，就是隱私保護，在國內更多時候會稱之為個人信息。

什么是個人信息？所有能夠單獨或結合識別特定自然人身份的那些信息，甚至是反映活動情況的信息，都叫個人信息。

什么是共享？如果你是信息的控制者，你將信息共享給對方，就讓對方擁有了控制權，在這之后你可能就沒有撤回或是拒絕的權利了。

這是共享最大的一個痛點，新版的個人信息安全規(guī)范里面會看到很多關于信息共享的要求。

有用性，這是數(shù)據(jù)的一個非常重要的特點，就是數(shù)據(jù)對于應用一定要有具體的含義，要不然這個數(shù)據(jù)就沒有價值了。

為打破數(shù)據(jù)割裂和避免隱私泄露，數(shù)據(jù)可用不可見就成為一個重要的目標。數(shù)據(jù)可用不可見，即充分利用對各方的數(shù)據(jù)，讓數(shù)據(jù)保持對外開放，同時能夠讓數(shù)據(jù)不直接共享，不離開機構或個人。

在楊強老師的課程里有提到過，數(shù)據(jù)不動模型動，這是能夠解決數(shù)據(jù)可用不可見的一種方式。但它的核心是要去訓練一個模型。而數(shù)據(jù)可用不可見，不一定需要做建模這件事。

還有很多時候可能只是想做計算，這就不再是訓練模型的事情，而是開放和不共享的問題。

開放不共享，就像國家之間在能源材料的合作中，每個國家有一些核心資源如鐵礦石，類似于機構的基本生產數(shù)據(jù)。

很多國家禁止出口這種核心的資源，相當于是不能直接共享。但對于鐵礦石加工后的鋼鐵制品，他們卻開放出口的。

也就是說，數(shù)據(jù)經過加工之后，形成了一種半成品的形態(tài)，它是可以開放出去使用的，而不是用一種直接共享或直接訪問原始數(shù)據(jù)的方式。

這樣看來，我們其實可以也做到數(shù)據(jù)可用，但又不可見。換句話說就是，“懂你不認識你”。

“懂你不認識你”主要針對個人用戶。舉個例子，很多人的瀏覽習慣或行為會涉及到個人隱私，這些數(shù)據(jù)是不希望直接對外共享的。

但是我們又很希望能夠獲取到很多便利服務，讓手機更懂自己，在需要的時候能夠提供相應的推薦，讓軟件做得很智能、很貼心。這時就可以采用數(shù)據(jù)可用不可見的形式。

為了實現(xiàn)數(shù)據(jù)可用不可見這個目標，傳統(tǒng)的中心化計算模式，也就是大數(shù)據(jù)經常會做的中心化聚集，把數(shù)據(jù)存儲聚集再學習訓練，已經不能滿足要求。

中心化不可行，那就讓數(shù)據(jù)分散在各個機構形成，依然保留著所謂的小數(shù)據(jù)模式——相對來講是小數(shù)據(jù)，當然也有很多機構的數(shù)據(jù)量已經很大——采用分布式或去中心化方式計算或學習。

原始數(shù)據(jù)直接共享不可行，我們可以采用兩種方式，一是對數(shù)據(jù)進行加密，加密后也不破壞原始數(shù)據(jù)的統(tǒng)計特性。

第二種方式，可以將數(shù)據(jù)知識化，也就是說將數(shù)據(jù)轉化成為一種模型策略的知識，然后再把這些分散的知識聚合在一起，實現(xiàn)數(shù)據(jù)的可用。這就是知識聯(lián)邦的大致構想。

同盾AI研究院深度學習首席專家李宏宇：解構知識聯(lián)邦，開創(chuàng)數(shù)據(jù)“可用不可見”新局面

知識聯(lián)邦全景圖

知識聯(lián)邦從名字上看，有清晰的兩個主題：知識和聯(lián)邦。

什么是知識？這個概念源自于我們談論數(shù)據(jù)和信息。

數(shù)據(jù)一般被認為是原始素材，客觀描述客觀事物的數(shù)量、屬性、位置等關系。

信息則是經過加工處理之后、具有邏輯關系的數(shù)據(jù)，通常會是對決策有價值。

知識，更多是在信息層上再進一步地歸納演繹之后，沉淀下來的有價值的信息。通常情況下，知識被認為是與決策有關的。

智慧是有了知識之后，才能進一步預測和判斷未來，這可能是未來智慧城市或智慧決策的目標。

同盾AI研究院深度學習首席專家李宏宇：解構知識聯(lián)邦，開創(chuàng)數(shù)據(jù)“可用不可見”新局面

數(shù)據(jù)、信息和知識經常被混用，三者的界定和使用者有很大關系。

比如某個經過加工的數(shù)據(jù)，它可能對某人而言是一種信息，但對另外一個人來說可能只是一個數(shù)據(jù)。

在某種語境下產生的一個知識，在另外的語境里可能就是信息，甚至是根本沒有任何意義的數(shù)據(jù)。

從知識再跳到聯(lián)邦，其實聯(lián)邦才是我們的重心，其實想做的事情，最終是希望通過一種安全的方式解決數(shù)據(jù)孤島現(xiàn)象。

在知識聯(lián)邦里，聯(lián)邦本質其實是一種數(shù)據(jù)的安全交換協(xié)議。

之前還有數(shù)據(jù)聯(lián)邦，其實它跟知識聯(lián)邦差別很大。數(shù)據(jù)聯(lián)邦更多是一種數(shù)據(jù)集成方法，它實際上就是聯(lián)邦數(shù)據(jù)庫系統(tǒng)，將不同來源的數(shù)據(jù)庫集成之后方便查詢。關鍵是它不涉及到隱私保護的機制。

知識聯(lián)邦其實是一套理論框架體系，目的是將數(shù)據(jù)聯(lián)合起來，轉換成為有價值的知識，同時在聯(lián)合的過程當中采用一些安全的數(shù)據(jù)交換協(xié)議。目的是有效利用各參與方的數(shù)據(jù)來進行知識的共創(chuàng)、共享和推理。

聯(lián)邦學習更強調怎樣訓練、學習、建模，創(chuàng)造知識。但事實上還有很多常識、先驗知識或領域知識不需要讓機器學習就可以去共享的，比如多源知識推理，這也屬于數(shù)據(jù)可用不可見。

在真正的實踐中，我們采用一種弱中心化方式。過去強中心化大數(shù)據(jù)集成方式是不可行的，主要是安全存在很大隱患。

但完全的去中心化，也很難兼顧效率。尤其是在進行共識計算的時候，效率非常低。弱中心化方式更多是一種強中心化和去中心化的折衷，在中心節(jié)點只進行計算，不對數(shù)據(jù)集成存儲，可以達到安全和效率的兼顧。

在知識聯(lián)邦的框架體系里，我們不僅僅可以進行聯(lián)邦學習，同時也可以進行安全多方計算，也可以進行安全多方共享和安全多方推理。

事實上整個知識聯(lián)邦，與很多技術有一定關系，比如可執(zhí)行環(huán)境和隱私計算。前者依托硬件，可以成為知識聯(lián)邦的一種硬件化實現(xiàn)方式。

隱私計算更關注的，是隱私數(shù)據(jù)從產生、收集、保存，甚至到銷毀，所有環(huán)節(jié)中保護（隱私數(shù)據(jù)）的方法。但在使用中，它偏于計算，而不包含學習的一些過程。

同盾AI研究院深度學習首席專家李宏宇：解構知識聯(lián)邦，開創(chuàng)數(shù)據(jù)“可用不可見”新局面

知識聯(lián)邦可以根據(jù)不同方式進行分類。

根據(jù)數(shù)據(jù)的特點分類

分成跨樣本的聯(lián)邦、跨特征的聯(lián)邦，甚至還有同時基于這兩種形式的復合型聯(lián)邦。

跨樣本的聯(lián)邦更多是同構的數(shù)據(jù)，數(shù)據(jù)特征一致，但數(shù)據(jù)擁有方式不同?？缣卣鞯穆?lián)邦，更多會存在不同的機構間。當然這還是要有相同的、有交集的用戶才能進行跨特征的聯(lián)邦。

除了這兩種形式之外，更復雜的是既要跨樣本又要跨特征復合型聯(lián)邦。

根據(jù)聯(lián)邦應用目的分類

可以分為聯(lián)邦計算、聯(lián)邦學習、聯(lián)邦推理等。剛才提到聯(lián)邦學習包含的主要是訓練和預測兩個階段。

最早谷歌做聯(lián)邦學習，更強調訓練。訓練結束后，模型預測直接發(fā)送到各個客戶端的手機，用戶自行預測。但在跨特征聯(lián)邦，聯(lián)邦訓練和聯(lián)邦預測都會遇到非常復雜的問題。

聯(lián)邦計算，類似于安全多方計算。

聯(lián)邦推理，更多是知識層上的推理過程。

比如疫情期間，為了調查患者周圍的可疑人群，會涉及到很多數(shù)據(jù)，包括行為軌跡、社交網絡、住宿交通等等。

但這些放在一起不是單純再訓練，是想把已有的知識做更多的知識演繹，推理出來新的知識，最終鎖定嫌疑人群。

根據(jù)對象類型

知識聯(lián)邦也可以分為是個體間、機構內和機構間的聯(lián)邦。機構間的聯(lián)邦大家都比較熟悉了，機構內部的聯(lián)邦其實也非常多。

比如大型跨國機構希望把在中國境內獲取到的數(shù)據(jù)，能夠幫助他們在東南亞、甚至是其他國家能夠有更大的幫助，但會涉及跨境數(shù)據(jù)交換的問題，此時機構內的聯(lián)邦就發(fā)生了。

根據(jù)聯(lián)邦階段分類

分為信息層、模型層、認知層，和知識層聯(lián)邦。

信息層：主要發(fā)生在聯(lián)邦的數(shù)據(jù)轉到第三方的服務器之前，需要先把所有數(shù)據(jù)加密，或通過某種形式轉換成為有價值的信息。

模型層：發(fā)生在模型訓練過程中，跟之前提到的聯(lián)邦訓練的過程實際上是一致的。

認知層：也發(fā)生在模型訓練過程中，但并不把模型參數(shù)聚集在一起聯(lián)動，而是把局部訓練之后產生的粗淺認知進行聯(lián)邦，變得更合理。

知識層：前面形成很多認知結果之后，把它存成知識庫。這種知識庫其實每一家機構都有，能夠組成一個知識網絡。如果在知識網絡上不斷推理和演繹，挖掘出更有價值的知識，能提前預判事情的發(fā)生，最終形成合理決策。

比如疫情爆發(fā)最終導致全球股票、期貨大跌；比如黑龍江等地成為二次爆發(fā)疫情的高風險區(qū)，其實這些都是知識推理的過程。

同盾AI研究院深度學習首席專家李宏宇：解構知識聯(lián)邦，開創(chuàng)數(shù)據(jù)“可用不可見”新局面

具體來看，信息層聯(lián)邦在隱私保護方面，對加密技術要求更高。加密技術沒有到位，就無法很好保護參與方數(shù)據(jù)。所以信息層的聯(lián)邦一般要求數(shù)據(jù)脫敏加密之后，一定是以密文形式在第三方服務器上計算。

信息層更多應用在聯(lián)邦計算的過程當中，比如金融經常出現(xiàn)的多頭共債問題。在大產品的運維和升級過程中，經常會做的比如A/B test，這些都可以在信息層完成。

信息層也可以做聯(lián)邦學習的工作，但它不是在每一個參與方向去做訓練學習，而是把所有的密文數(shù)據(jù)直接放在第三方服務器上，再在密文上訓練學習。

除此之外，還可以在信息層上做聯(lián)邦檢索。比如失信人員黑名單的查詢，這也是一個普遍存在的需求。

跨特征聯(lián)邦時，需要做的用戶對齊可以在信息層上完成。

同盾AI研究院深度學習首席專家李宏宇：解構知識聯(lián)邦，開創(chuàng)數(shù)據(jù)“可用不可見”新局面

模型層，是用本地數(shù)據(jù)訓練本地模型，把模型參數(shù)變化加密之后，傳送到第三方進行聚合。

同盾AI研究院深度學習首席專家李宏宇：解構知識聯(lián)邦，開創(chuàng)數(shù)據(jù)“可用不可見”新局面

認知層，是在每一個參與方訓練本地的數(shù)據(jù)，提取本地的模型的特征表達，加密之后上傳到第三方服務器，實現(xiàn)集成。

這種應用主要出現(xiàn)在多模態(tài)智能信貸、智能身份認證。

同盾AI研究院深度學習首席專家李宏宇：解構知識聯(lián)邦，開創(chuàng)數(shù)據(jù)“可用不可見”新局面

在跨樣本聯(lián)邦中，認知層有點類似于機器學習里的集成學習，不過聯(lián)邦會更關心數(shù)據(jù)隱私保護。

關于知識聯(lián)邦的更多技術細節(jié)，可以查看我們近期發(fā)布的白皮書。

何為工業(yè)級應用產品智邦平臺？

智邦平臺的核心有四大模塊，第一是任務場景。

現(xiàn)在平臺中的任務場景還需要定制開發(fā)，一個場景需要定制一個模型。一個常見問題是，以前有很多面向不同任務場景已經建成的模型，現(xiàn)在還沒有辦法快速聯(lián)邦化。

第二個模塊是功能服務。智邦平臺解決的是真實應用中會遇到的問題，比如模型發(fā)布，參與方之間的數(shù)據(jù)貢獻怎么衡量？費用怎么統(tǒng)計？

第三個模塊是開放計算平臺。平臺會模塊化，并支持開放式、自動化建模，方便快速建模的操作。

第四個模塊是基礎設施?；A設施更多是一些通用組件，提供底層服務。計算平臺和相關依賴采用容器化方式，能讓部署更方便快速。

除了四個核心模塊這里有兩個關鍵的中間件，一是通信設施，二是數(shù)據(jù)交換沙箱。

跨樣本聯(lián)邦相對來講比較容易落地，但跨特征聯(lián)邦必須要有這么一個多元異構數(shù)據(jù)的交換沙箱才能夠完成，尤其是在內網外網的通訊。這里涉及到的更多工作就不再展開了。

跨樣本時，有很多深度模型、樹模型都可以直接采用，但跨特征聯(lián)邦很多模型需要定制。

尤其是在金融行業(yè)，大家更關心模型的可解釋性，所以很多時候都不用深度模型，而會選擇樹模型。智邦平臺就提供了包括深度模型、樹模型在內的一些聯(lián)邦算法可供用戶選擇

跨樣本聯(lián)邦中還有一個常見問題是，用戶數(shù)據(jù)太少，也就是小樣本的問題。平臺中也提供了基于小樣本進行聯(lián)邦（學習）的方案。

簡單來講，平臺三大亮點是：安全、智能和實用。平臺通過聯(lián)邦的數(shù)據(jù)交換沙箱和安全交換協(xié)議來解決安全性問題；平臺提供多種智能模型供大家自由選擇；同時從貢獻的評估到計費，平臺提供了一系列功能解決實際應用問題。

同盾AI研究院深度學習首席專家李宏宇：解構知識聯(lián)邦，開創(chuàng)數(shù)據(jù)“可用不可見”新局面

在網絡安全方面，將網絡安全域劃分成參與方的私有域、交換域和聯(lián)邦域三部分，數(shù)據(jù)交換發(fā)展在交換域，聯(lián)邦集成是在聯(lián)邦域完成。

在數(shù)據(jù)安全和隱私保護方面，從隱私數(shù)據(jù)處理到模型數(shù)據(jù)的傳輸，平臺提供了多種安全加密方式，保證不同機構間交集外所有用戶數(shù)據(jù)的安全性。

同盾AI研究院深度學習首席專家李宏宇：解構知識聯(lián)邦，開創(chuàng)數(shù)據(jù)“可用不可見”新局面

不過對于聯(lián)邦平臺的安全性和隱私保護等級，目前為止還沒有一個類似等保的標準，能對平臺工具進行等級認證。

事實上，對于數(shù)據(jù)安全，應該要從數(shù)據(jù)流通的全過程進行評估。對每一個涉及到數(shù)據(jù)隱私的地方，都要衡量采用的隱私技術所能達到的隱私保護等級。我們也在聯(lián)合多家單位一起推動相關等級認證標準的確立。

在金融行業(yè)應用中，很多時候大家弄不清楚哪些數(shù)據(jù)屬于隱私、敏感程度達到什么程度。今年3月，央行出臺的個人金融信息保護技術規(guī)范，把很多金融信息分成了 C1、C2、C3的等級。根據(jù)敏感等級，可以采用不同的技術手段進行數(shù)據(jù)去標識化和脫敏。

同盾AI研究院深度學習首席專家李宏宇：解構知識聯(lián)邦，開創(chuàng)數(shù)據(jù)“可用不可見”新局面

在聯(lián)邦應用中，經常會涉及到的主要還是C2級數(shù)據(jù)。C1級敏感數(shù)據(jù)，更多是標記信息。不過C1、C2、C3的劃分也具有相對性，當相同的信息組合在一起，敏感度也會升級。所以考慮數(shù)據(jù)隱私保護，必須要在一開始就要做數(shù)據(jù)分級完整規(guī)劃。

總的來說，智邦平臺是參照知識聯(lián)邦體系打造出來的一站式聯(lián)邦平臺。平臺在算法能力方面，不僅支持聯(lián)邦學習，還支持安全多方計算；也提供了非常樸實有效的一些算法；同時提供了聯(lián)邦特征選擇方法，來保證參與方的數(shù)據(jù)質量。

在安全機制方面，平臺提供了多種加密算法，比如在數(shù)據(jù)安全對齊中，平臺可以保證參與方交集外數(shù)據(jù)不會泄露。同時保證，標簽信息在訓練中不會參與傳輸。

而平臺最核心的聯(lián)邦數(shù)據(jù)安全交換沙箱則可以實現(xiàn)對數(shù)據(jù)標準化和脫敏處理，同時封裝了一系列數(shù)據(jù)安全交換協(xié)議，供聯(lián)邦使用。

同盾AI研究院深度學習首席專家李宏宇：解構知識聯(lián)邦，開創(chuàng)數(shù)據(jù)“可用不可見”新局面

在實施應用方面，平臺在本地計算可以采用Spark計算方式，效率高，也方便和現(xiàn)有的機構大數(shù)據(jù)生態(tài)打通。同時系統(tǒng)采用容器化方式，方便部署實施。

五大應用場景詳解

智能金融風控

統(tǒng)建模方式里，運營商如果沒有y數(shù)據(jù)，無法單獨建模；雙方又都不可能暴露自己隱私數(shù)據(jù)。

智邦平臺中會先由中間方協(xié)調者分發(fā)一個模型，然后分別基于本地的數(shù)據(jù)計算梯度。

盡管運營商沒有標簽信息，但平臺在這里采用了計算換安全的方式，也是基于不經意傳輸（OT）方法，把所有可能梯度都匯集到有標簽的一方，讓它篩選和聚合。這時可以在y標簽沒有被傳輸?shù)那闆r下，快速完成模型迭代。

當然，這可能會讓計算成本高一點，但聯(lián)邦建模的隱私性肯定是要遠遠大于傳統(tǒng)聯(lián)合建模。如果不考慮通信問題，這兩種建模方式的收斂速度基本上一致。準確性也差不多。

同盾AI研究院深度學習首席專家李宏宇：解構知識聯(lián)邦，開創(chuàng)數(shù)據(jù)“可用不可見”新局面

小微企業(yè)信貸智能信審

企業(yè)信審相對更復雜，會有公開數(shù)據(jù)、自有數(shù)據(jù)或是第三方數(shù)據(jù)，各方數(shù)據(jù)匯集在一起，形成完整信息模型，這是很大的工作量，于是我們有了這樣一個信審模型。

不過如果能利用調查、工商、司法等信息，可以進一步做聯(lián)邦推理，這時的信審才能算是完整的。

同盾AI研究院深度學習首席專家李宏宇：解構知識聯(lián)邦，開創(chuàng)數(shù)據(jù)“可用不可見”新局面

用戶行為聯(lián)合建模

這是典型的跨樣本應用場景，要做的是無感認證。

簡單說，輸入密碼的時候，我們每個人都有一些固定的輸入行為習慣，這些行為習慣能通過學習方法提取出相應特征。

這就可以在密碼保護的同時，加一層無感認證，在輸密碼的時候自動判斷用戶行為，判斷輸密碼的是否為用戶本人。

但是每個用戶端不可能暴露自己的數(shù)據(jù)，同時也很難采集到每個用戶很多行為數(shù)據(jù)，這就要用到基于小樣本的聯(lián)邦元學習。

聯(lián)邦元學習的隱私性肯定會要大于非聯(lián)邦方式；準確率也會比非元學習高很多。

同盾AI研究院深度學習首席專家李宏宇：解構知識聯(lián)邦，開創(chuàng)數(shù)據(jù)“可用不可見”新局面

多頭共債累積風險聯(lián)邦計算

很多機構都借貸評估時都會面臨一個問題：這個用戶有沒有在其他家做過貸款？他的風險是不是已經透支得差不多了？

這時就希望能得到很多其他機構的數(shù)據(jù)，這個過程通常不需要去訓練學習，而是會利用一些簡單的知識進行判斷。

累計借貸風險可以通過安全的統(tǒng)計計算方式，在保證各家數(shù)據(jù)隱私不會泄露的前提下，匯總計算出該用戶的累計借貸風險。

用戶體驗A/B test

在自動化大運維平臺體系做A/B test，我們通常會分流出來一批用戶，然后判斷軟件上的某些改變會否讓他們的瀏覽行為習慣發(fā)生變化，是否會對他們有偏好上的影響。

我們可以統(tǒng)計用戶的信息，但不是直接收集用戶操作行為數(shù)據(jù)，而是分別在用戶端對他們的行為習慣進行統(tǒng)計計算，最終形成整體的統(tǒng)計特征作為統(tǒng)籌決策的依據(jù)。

現(xiàn)實應用中，我們會面對很多分散的小數(shù)據(jù)，知識聯(lián)邦的目標是通過安全多方計算和學習，做到數(shù)據(jù)可用不可見，同時知識共建可共享。

智邦平臺作為知識聯(lián)邦參照實現(xiàn)的聯(lián)邦平臺，會逐漸形成一套開放的操作系統(tǒng)，用戶可以組建和參與不同的任務聯(lián)盟，或者從模型商店中選用不同的模型。系統(tǒng)逐步開放開源給大家，讓更多用戶參與其中，這也是我們整個智能開放操作系統(tǒng)的愿景。

智邦平臺對銀行消金非常有價值，可以持續(xù)提升其核心競爭力，并提高其風控質量，讓其數(shù)據(jù)價值變現(xiàn)。同時，也可以幫助相應機構提升行業(yè)影響力，并滿足監(jiān)管對于數(shù)據(jù)安全和隱私保護的要求。

同盾AI研究院深度學習首席專家李宏宇：解構知識聯(lián)邦，開創(chuàng)數(shù)據(jù)“可用不可見”新局面

總結一下，知識聯(lián)邦的落地實施有三個重點：

首先是連接，也就是連接多方，讓多方參與進來，才會有聯(lián)邦數(shù)據(jù)安全交換的問題。其次是智能，安全多方應用最終目的還是智能化應用，從多方數(shù)據(jù)中安全的提取和利用智能知識才是關鍵。最后是開放，一個體系框架的發(fā)展和落地應用需要大家廣泛的參與。

知識聯(lián)邦是一個開放的體系，智邦平臺也是一個開放的平臺，未來會逐漸開放出去，和大家合作共贏。

互動問答精選

問：一個子模型被攻擊，在模型聯(lián)盟過程當中會造成怎樣的安全風險？是否存在較完善的防御策略？

李宏宇：其實模型攻防策略，不只是在聯(lián)邦過程產生，現(xiàn)在很多模型訓練都會遇到，這些策略都可以在聯(lián)邦中使用。如果子模型只是被幾次攻擊，而整體數(shù)據(jù)量比較大的話，在長時間的訓練過程中，攻擊的影響會逐漸退化掉。

另外，如果其他參與方很多且數(shù)據(jù)量非常大的時候，一個參與方的模型被攻擊，相對影響還是會有，但不會那么明顯。

問：怎么分配利益？如何衡量各方的貢獻？

李宏宇：智邦平臺提供了聯(lián)邦特征選擇的方法，來保證用戶數(shù)據(jù)質量，遴選那些對于整個模型精度有提升、有幫助的特征。模型精度提升的效果就是衡量貢獻并進行利益分配的一個標準。貢獻度評估方法其實有很多種，但在聯(lián)邦應用中落地實施還需要進一步技術突破。

問：聯(lián)邦學習或知識聯(lián)盟是否只是大廠的機會？

李宏宇：倒不一定。聯(lián)合建模也好，做聯(lián)邦也好，這都是應用導向的。但現(xiàn)在最困難的一個問題是，怎樣把這機構間多元異構數(shù)據(jù)給標準化和統(tǒng)一化，這才是最大的痛點，大廠也不一定能解決這個問題。

現(xiàn)在的關鍵是誰能把這個問題解決掉，其它建模或計算就都可以在這樣的基礎平臺上去完成，并創(chuàng)造價值。各種企業(yè)都有機會。

問：準確性提升算誰的？

李宏宇：在整個聯(lián)邦過程中，模型提升通常有一定的應用目的。通常會有一家模型需求方，用自有的數(shù)據(jù)訓練出的準確度不高，但是如果引入其它聯(lián)邦方的數(shù)據(jù)時，精度就會大大提升。這個時候準確性提升的功勞是誰的？這個問題顯而易見，難的是如何量化這種貢獻。

問：樣本對齊和加密模型訓練與對策，區(qū)別在哪里？

李宏宇：樣本對齊是發(fā)生在模型聯(lián)邦訓練之前的一個工作，主要是尋找參與方之間的共同用戶（交集）。樣本對齊面臨最多的問題是，參與方都不希望交集外的數(shù)據(jù)還被泄露出去?，F(xiàn)在智邦平臺做到已經達成了這個目標。

樣本對齊要想做到充分安全，也就是交集內用戶也不對外可見，還是有很大挑戰(zhàn)的，這需要與訓練過程結合在一起才能實現(xiàn)。

后臺回復“知識聯(lián)邦” ，即可獲得完整版《知識聯(lián)邦白皮書》。

雷鋒網雷鋒網雷鋒網

雷峰網原創(chuàng)文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏